13. 単回帰分析
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
13.1. 単回帰モデル
https://gyazo.com/cd4f16d41723ca4bc2c01a44cd666eed
変数「喫煙者数」は1人あたりタバコの消費量(100本)
変数「肺がん」は肺がんによる人口10万人あたりの死亡者数
これを以後「肺がんデータ」と呼ぶ
「肺がんデータ」は観測対象が共通した2変数データと言う意味では、第7章に登場した「パスタデータ」と同じ
「パスタデータ」の観測対象はパスタであり、「肺がんデータ」の観測対象は州
したがって「パスタデータ」と同様に「肺がんデータ」でも散布図を描くことができる
https://gyazo.com/49bdbc7903bb05c08f284ef9235ef7bd
コロンビア特別区(DC, District of Columbia)は右上端に位置し、「喫煙数」と「肺がん」がともに大きい
ネブラスカ州(NE, Nebraska)は「喫煙数」はトップだが、「肺がん」はトップではない
逆にユタ州(UT, utah)は散布図の左下に位置し、「喫煙数」と「肺がん」が最も小さい
対応ある2変数のデータは相関係数を計算することもできた
「肺がんデータ」の相関係数は$ 0.697であり、正の相関関係がある
「煙草の消費量の多い州は、肺がんによる死亡者も多い傾向がある」と解釈できる
逆に「パスタデータ」との相違点は何か
2つの変数の測定単位が異なること
パスタデータ: 実測も目測もmm
肺がんデータ: 喫煙数(本数), 肺がん(人数)
2つの変数の平均値を比較すること自体に意味がない
13.1.1. 回帰直線
一方の変数から他方の変数を予測・説明するための分析方法
「どのくらい煙草を消費していたら、何人くらい肺がんで亡くなるか」
予測される変数
この場合は「肺がん」
ここでは$ yと表す
予測に利用する変数
この場合は「喫煙数」
ここでは$ xと表す
$ \hat y_i = f(x_i) \qquad (13.1)
添え字$ iは観測対象を表現しており、「肺がんデータ」の場合の$ iは$ 1から$ 44まで動く
ここでは入門的な予測のための関数として、以下のような一次変換を選ぶ
$ \hat y_i = a + b \times x_i \qquad (13.2)
1次変換の定数$ a, bを定めると1本の直線が決まる
「肺がんデータ」の州名を○で置き換え、データにまとわりつく直線を描いた散布図の再表現が図13−2
https://gyazo.com/696bb234979fbcbf46f051cdf7085f89
(13.2)式のような予測式
単価樹直線を使って$ x_iと$ y_iの関係を分析する方法
予測式(13.2)には基準変数の測定値$ y_iが登場する
予測値が測定値にぴったり一致することは期待できない
$ y_i = a + b \times x_i + e_i \qquad (13.3)
単回帰モデルは(13.2)式を考慮して以下のように表現することができる
$ y_i = \hat y_i + e_i \qquad (13.4)
https://gyazo.com/aceff91ca5f3951fbeae4916105de0c6
13.1.2. 事後分布
(13.4)式の誤差変数$ e_iが、平均$ 0、標準偏差$ \sigma_eの正規分布(1.7)式
$ e_i \sim N(0, \sigma_e) \qquad (13.5)
に従い、$ e_iと$ x_iが独立であるとすると
$ y_i \sim N(\hat y_i, \sigma_e) = N(a + b \times x_i, \sigma_e) \qquad (13.6)
と導かれ、$ y_iの分布は正規分布の密度関数を利用して
$ f(y_i|\bm \theta) = f(y_i|a+b \times x_i, \sigma_e), \qquad (13.7)
$ ただし, \bm \theta = (a, b, \sigma_e)
と表現される
$ x_iは定数であり、確率的に変動しないし母数でもない
$ n個の測定が互いに独立だとすると、(2.12)式に相当する尤度は、
$ f(\bm y|\bm\theta) = f(y_1|\bm\theta) \times \cdots \times f(y_n|\bm\theta) \qquad (13.8)
となる。ただし
$ \bm y = (y_1, y_2, \cdots, y_{n-1}, y_n) = (25.88, 17.05, \cdots, 15.53, 15.92) \qquad (13.9)
である
次に母数は互いに独立であるとか停止、(2.14)式に相当する同時事前分布を、適当な一様分布の積として
$ f(\bm\theta) = f(a) \times f(b) \times f(\sigma_e) \qquad (13.10)
のように導く
最後に(2.15)式に相当する事後分布を
$ f(\bm\theta|\bm y) \propto f(\bm y|\bm\theta)f(\bm\theta) \qquad (13.11)
と導く。MCMC法を利用することにより、母数の事後分布・生成量の事後分布・予測分布に従う乱数を生成することが可能になる
13.2 生成量と予測分布
13.2.1. 予測値の事後分布
予測値の事後分布は、以下の生成量で近似する
$ \hat y_i^{(t)} = a^{(t)} + b^{(t)} \times x_i \qquad (13.12)
予測値の分散$ \sigma_{\hat y}^2の事後分布は、$ \hat y_i^{(t)}の分散である$ \sigma_{\hat y}^{2(t)}で近似する
13.2.2. 回帰直線の事後分布
任意の予測変数の値$ x^*に対する予測値の事後分布は、以下の生成量で近似する
$ \hat y^{*(t)} = a^{(t)} + b^{(t)} \times x^* \qquad (13.13)
広い範囲の間隔の短い等差数列を$ x^* に与えると、回帰直線の事後分布の近似が得られる
13.2.3. 決定係数
予測値$ \hat y_iと誤差変数$ e_iが互いに独立であるとすると、和の分散は分散の和となるから、測定値の分散$ \sigma_{\hat y}^2と誤差の分散$ \sigma_e^2の単純な和となる
$ \sigma_y^2 = \sigma_{\hat y}^2 + \sigma_e^2 \qquad (13.14)
予測変数による基準変数の予測の精度として利用できる1つの指標
$ \eta^2 = \frac{\sigma_{\hat y}^2}{\sigma_y^2} = \frac{\sigma_{\hat y}^2}{\sigma_{\hat y}^2 + \sigma_e^2} \qquad (13.15)
決定係数の事後分布は以下の生成量で近似する
$ \eta^{2(t)} = \frac{\sigma_{\hat y}^{2(t)}}{\sigma_{\hat y}^{2(t)} + \sigma_e^{2(t)}} \qquad (13.16)
13.2.4. 事後予測分布
手元の基準変数の事後予測分布は、以下の乱数によって近似する
$ y_i^{*(t)} \sim N(a^{(t)} + b^{(t)} \times x_i, \sigma_e^{(t)}) \qquad (13.17)
手元のデータではなく、任意の予測変数の値$ x^*に対する基準変数の事後分布は、以下の乱数によって近似する
$ y^{*(t)} \sim N(a^{(t)} + b^{(t)} \times x^*, \sigma_e^{(t)}) \qquad (13.18)
広い範囲の間隔の短い等差数列を$ x^*に与えると、単回帰モデルの事後予測分布の近似が得られる
13.3. 分析結果
「肺がん」を基準変数とし、「喫煙数」を予測変数として回帰分析を行う
$ 21000個の乱数を5本発生させ、バーンイン期間を$ 1000とし、$ T=100000の乱数によって母数の事後分布を近似した
13.3.1. 母数と決定係数
母数と決定係数の推定結果
table: 表13-2 単回帰モデルの母数と決定係数の事後分布
EAP post.sd 2.5% 5% 50% 95% 97.5%
a(切片) 6.466 2.211 2.104 2.823 6.473 10.094 10.815
b(回帰係数) 0.529 0.087 0.359 0.387 0.529 0.672 0.700
σₑ(誤差sd) 3.164 0.358 2.556 2.638 3.131 3.803 3.957
η²(決定係数) 0.458 0.096 0.251 0.288 0.465 0.604 0.625
EAPを利用すると、回帰直線は次のように構成される
$ \hat y = 6.466 + 0.529 \times x \qquad (13.19)
「肺がんデータ」の「喫煙数」そのものを代入する必要はないから、添え字$ iはつけない
切片は予測変数が$ x = 0であるときの、基準変数の予測値
切片の推定値は$ 6.466(2.211)[2,104, 10.815]
したがって、煙草を全く消費しなくなると、肺がんによる10万人あたりの年間死亡者数は約6.5人になると予測される
回帰係数は、予測変数が1単位増加した時の基準変数の予測値の変化量
回帰係数の推定値は$ 0.529(0.087)[0.359, 0.700]
1人あたりの煙草の年間消費量が100本増えると、肺がんによる10万人あたりの年間死亡者数は約0.5人(200本で約1人)増えることが予測される
決定係数の推定値は$ 0.458(0.096)[0.251, 0.625]
「肺がん」のデータの散らばりは、「喫煙数」によって$ 45.8\%説明されると解釈する
13.3.2. 観測対象の分析
表13-3に観測対象の情報を示す
https://gyazo.com/99fb0b7f7f837eb2760aa099fc421bee
13.3.1. 残差プロット
独立変数と残差の散布図
https://gyazo.com/db259a434ad33ed4961fd23083530049
残差プロットが与える情報
たとえばルイジアナ州は一番上に位置しており、「喫煙数」から予測される値よりも約7.6人も死亡者が多い
ペンシルヴァニア州は、一番下に位置しており、「喫煙数」から予測される値よりも約6.9人も死亡者が少ない
残差プロットは「ルイジアナ州とペンシルヴァニア州は『喫煙数』がほぼ同じなのに、死亡者数が極端に異なる」に類する観測対象に関する有用な知見をしばしば示してくれる
13.3.4. 回帰直線の確信区間と基準変数の予測区間
https://gyazo.com/6185d1edb99564b7d8a19497cd12c61e
真ん中の実線: 回帰直線
破線: 回帰直線の95%確信区間
点線: 基準変数$ y^*の95%予測区間
回帰直線の95%確信区間の描き方
予測変数を覆う区間の点$ x^*を用意する
ここでは「喫煙数」に関して$ 9から$ 2おきで$ 47までの合計$ 20の点を選んだ
その$ 20の点$ x^*で(13.13)式を評価し、構成した$ 20個の$ \hat y^{*(t)}の事後分布を求める
$ 20個の事後分布の2.5%点を破線で結び、97.5%点も破線で結べば、その内側が回帰直線の95%確信区間となる
基準変数$ y^*の95%予測区間の描き方
予測変数を覆う区間の点$ x^*を用意する
先と同じ$ 20の点とする
その$ 20の点$ x^*を利用して(13.18)式で乱数を発生させ、構成した$ 20個の$ y^{*(t)}の事後分布を求める
$ 20個の予測分布の2.5%点を点線で結び、97.5%点も点線で結べば、その内側が基準変数$ y^{*(t)}の95%予測区間となる
放送授業
データから計算した眼の前の95%信頼区間に母数が含まれる確率は95%ではない 95%の「95%信頼区間」が母数を含む
両側確信区間は、まれにMAP推定値を含まないこともある